概率密度函数 - 简单教程

By Ruben Geert van den Berg under Statistics A-Z

概率密度函数(Probability Density Function, PDF)是一个函数,可以从中获得一系列结果的概率。

  • 概率密度函数 - 基本规则
  • 累积概率密度函数(Cumulative Probability Density Function, CDF)
  • 逆累积概率密度函数(Inverse Cumulative Probability Density Function)
  • 概率密度和概率分布的区别
  • 概率密度函数在应用统计中的应用

例子

小鼠的出生体重服从正态分布,这是一个概率密度函数。 总体均值 μ = 1 克,标准差 σ = 0.25 克。 那么,一只新生小鼠的出生体重在 1.0 克到 1.2 克之间的概率是多少? 下图展示了如何仅使用我们刚刚描述的概率密度曲线来获得一个近似答案。

Normal Distribution Mice 10 12

该概率是曲线下 1.0 克到 1.2 克之间的面积。 它的宽度为 0.2 克,其平均高度——即该体重区间的概率密度——大约为 1.45。 因此,新生小鼠体重在 1.0 克到 1.2 克之间的概率为 1.45 · 0.2 = 0.29 - 大约 29%。

那么什么是概率密度?

概率密度是每个测量单位的概率。我们的概率密度 1.45 意味着在 1.0 克到 1.2 克的区间内,每克(测量单位)的概率是 1.45。与概率不同,概率密度可以超过 1,但只能在小于 1 个测量单位的区间内。

将其与人口密度进行比较:某个村庄每平方公里 100 居民的人口密度并不意味着它有 100 名居民。如果这个村庄的表面积只有 0.5 平方公里,那么它有 (100 · 0.5 =) 50 名居民。

下面的截图展示了如何从 Excel 或 Google sheets 中获取概率密度。

Probability Density Function Excel

只需在某个单元格中输入 =NORM.DIST(1.1,1,0.25,FALSE) 即可返回 x = 1.1 处的概率密度,即 1.473。最后一个参数 cumulative 指的是累积密度函数,我们将在稍后讨论。

总之,在应用统计中,我们通常追求的是概率而不是概率密度。那么,显示概率密度的曲线有什么用呢?好吧,就像直方图一样,它显示了哪些值的范围出现频率。像这样,它可以预测如果我们实际绘制一个(相当大的)样本,直方图会是什么样子。 下图说明了这一点:它显示了一个包含 10,000 只小鼠的样本的直方图,并将假设的正态曲线(红色)叠加在上面。

Histogram With Normal Curve Birth Weights 正态曲线(红色)相当精确地预测了这个直方图的形状。

这条曲线——只是一个简单的函数——为我们提供了关于变量的大量信息,例如它的

概率密度函数 - 基本规则

概率密度函数的数学定义任何函数

  • 其表面积为 1 且
  • 不返回值 < 0。

此外,

  • 概率密度函数仅适用于连续变量,并且
  • 任何单个结果的概率都定义为零。只有结果的范围才具有非零概率。

那么,我们通常如何在应用研究中获得这些概率呢?简单的方法是使用累积概率密度函数。

累积概率密度函数

累积概率密度函数返回结果小于某个值 x 的概率。这样的概率——表示为 \(P(X x)\)——被称为累积概率。

示例:小鼠的出生体重呈正态分布,μ = 1 且 σ = 0.25 克。随机抽取一只小鼠,出生体重小于 0.75 克的概率是多少?下图显示该概率对应于 0.75 克左侧的面积,即 0.159 或 15.9%。

Probability Density Function Left Tail

那么我们是如何找到这个精确面积的呢?好吧,任何值左侧的面积都可以用积分计算:

\[F_{cpd}(x) = \int_{-\infty}^x F_{pd}(x)dx = P(X \lt x)\]

其中

  • \(F_{cpd}(x)\) 表示累积概率密度函数;
  • \(F_{pd}(x)\) 表示概率密度函数,并且
  • \(P(X x)\) 是结果 \(X x\) 的概率。

下图显示了累积正态密度函数的样子。

Cumulative Probability Density Function Example Curve

请注意,我们可以很容易地从这条曲线中查找概率。但是,我们无法轻易地从这条曲线中估计该变量的均值、标准差或偏度。主要的例外是它的中位数 1.0 克。 最后但并非最不重要的是,下面的截图展示了如何在 Excel 或 Google Sheets 中获得累积概率。

Cumulative Probability Density Function Excel

如果一个变量呈正态分布,μ = 1 且 σ = 0.25,那么在某个单元格中输入 =NORM.DIST(0.75,1,0.25,TRUE) 将返回 X < 0.75 的概率,即 0.159。

逆累积概率密度函数

逆累积概率密度函数返回给定累积概率的值 x。示例:小鼠的出生体重呈正态分布,μ = 1 且 σ = 0.25 克。哪个出生体重将最低的 10% 与最高的 90% 的出生体重分开?下图展示了如何在 Excel 中找到这个值:出生体重小于 0.680 克的概率为 0.1 或 10%。

Inverse Cumulative Probability Density Function Excel

从 Excel 中的逆累积密度查找该值是通过输入 =NORM.INV(0.1,1,0.25) 完成的,它返回一个值(在本例中为出生体重)0.680。

概率密度和概率分布的区别

概率密度函数经常被错误地称为“概率分布”。这令人困惑,因为它们确实是两个不同的东西:

  • 概率密度函数适用于连续变量,而概率分布适用于离散变量;
  • 概率密度函数返回概率密度,而概率分布函数返回概率
  • 根据定义,对于概率密度函数,单独的结果具有概率。对于概率分布,单独的结果可能具有非零概率。

下面显示了一个真正的概率分布的教科书示例:掷一个平衡的骰子的结果。

Uniform Probability Distribution Outcome Die Roll

可悲的是,SPSS 手册将密度函数和分布函数都缩写为“PDF”,如下所示。另请注意,伯努利分布(一种概率分布)被错误地列在概率密度函数下。

Probability Densities In SPSS Manual

有趣的是,累积概率密度函数与累积概率函数相当。两者都返回累积概率:某个结果等于或小于某个值 x 的概率,表示为 \(P(X x)\)。

概率密度函数在应用统计中的应用

应用统计中的 四大 概率密度函数是

这些函数以不同的形式使用,用于不同的目的:

  1. 累积概率密度函数返回一系列结果的概率。两种这样的概率是

  2. 逆累积概率密度函数返回(选择的)概率的结果范围。像这样,它们用于构建置信区间:包含具有给定可能性的某个参数的值范围,通常为 95%。示例:“月平均工资的 95% 置信区间从 2,300 美元到 2,450 美元”。

  3. 概率密度函数有时用于检查统计假设。像这样,可以通过将正态曲线叠加在观察值的直方图上来评估正态性假设,就像我们在这里看到的那样。测试正态性的替代方法是

好吧。我想这基本上就是关于概率密度函数的全部内容。 如果您发现本教程有帮助,请在下面发表评论告诉我们。

感谢阅读!